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摘要 目的 : 整合 现 有 前 沿 的 大 量 而 分 散 的 精准 医学 知识 以 形成 系统 完整 的 知识 数据 库 ， 为 个 体 组 
学 数据 的 临床 应 用 提供 依据 ， 叶 在 最 终 实 现 基 于 组 学 特征 的 精准 用 药 推荐 。 方 法 : 采用 MySQL 数 
据 库 管理 系统 构建 数据 库 ， 从 FDA 伴随 诊断 、NCCN 指南 、My Cancer Genome、GDSC 四 大 
权威 医学 资源 中 手动 收集 精准 用 药 知识 ， 并 将 原始 数据 标准 化 、 结 构 化 后 以 统一 的 格式 存储 。 结 
R: 成 功 设 计 并 构建 了 肿瘤 精准 医学 知识 库 ， 目 前 共 收 录 1940 条 精准 用 药 指导 ， 涵 盖 了 基因 突变 
等 14 种 不 同类 型 的 组 学 特征 。 结 论 : 精准 医学 知识 数据 库 收 录 了 肿瘤 分 子 组 学 特征 和 治疗 策略 的 
关联 信息 ， 可 为 临床 上 个 体 化 治疗 方案 的 制定 提供 参考 依据 。 数 据 库 的 建立 为 精准 医疗 临床 决策 
支持 系统 的 开发 奠定 了 基础 。 
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Abstract Objective: To integrate substantial but scattered state-of-the-art precision medicine knowledge 
and form a systematic knowledge network, to support clinical application of individual omics data, aiming 
at precision medication recommendations. Methods: The database was constructed using MySQL. 
Precision medicine knowledge from FDA companion diagnosis, NCCN guidelines, My Cancer Genome 
and GDSC was manually collected in a unified format after being standardized and structured. Results: 
The tumor precision medicine knowledge base (PMKB) was successfully designed and constructed and 
has already collected 1940 clinical directives, covering 14 kinds of variations. Conclusion: PMKB collects 
information relating tumor mutations and therapeutic strategies, which can provide personalized treatments 
of reference. PMKB is also the base of constructing a clinical decision support system of precision 
medicine. 
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据 全 球 死亡 总 人 数 的 八 分 之 一 中。 然而 通过 手术 、 化 疗 、 放 疗 等 传统 癌症 疗法 治疗 时 ， 
昌 于 缺少 对 影像 、 病 理学 检查 可 及 范围 外 的 肿瘤 生理 状态 的 认识 ， 医 生 无 法 预测 患者 
对 于 特定 干预 的 疗效 ， 无 法 判断 肿瘤 的 复发 和 转移 ， 导 致 疗效 从 佳 ， 毒 副作用 明显 ， 
易 耐 药 复发 ， 预 后 较 差 中。 而 精准 医疗 作为 新 兴 的 个 体 化 医疗 模式 ， 可 从 组 学 水 平 更 
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全 面 地 表征 个 体 肿瘤 的 分 子 特征 ， 通 过 包括 组 学 分 析 、 分 子 检测 、 分 子 病理 及 大 数据 
分 析 等 一 系列 综合 技术 手段 ， 帮 助 临床 选择 药物 响应 良好 的 患者 (包括 放 化 疗 和 部 癌 
药物 ) ， 指 导 临 床 用 药 的 准确 性 和 安全 性 ， 提 高 癌症 诊治 效果 辐 。 下 一 代 测 序 (Next- 
Generation Sequencing, NGS) 技 术 的 发 展 使 多 重 基 因 分 型 和 高 通 量 基 因 组 分 析 变 得 更 为 
便捷 ， 从 而 使 临床 医生 能 够 及 时 获取 治疗 相关 的 分 子 信 息 以 选择 合适 的 靶 同 药物 。 目 
前 ， 美 国 食品 药品 监督 管理 局 (Food and Drug Administration, FDA) 已 批准 如 Extended 
RAS Panelf45、F1CDxtc8I 等 多 项 基于 NGS 的 伴随 诊断 (Companion diagnostics) 检 测 产 品 ， 
可 通过 检测 多 达 数 百 个 的 特定 基因 指导 临床 精准 用 药 。 其 他 国际 权威 医学 或 研究 机 构 
也 积极 推动 着 精准 医疗 的 临床 实践 应 用 ， 如 美国 国立 综合 癌症 网 络 (National 
Comprehensive Cancer Network, NCCN) 已 将 精准 治疗 相关 用 药 策略 纳入 临床 路 径 指南 ， 
My Cancer Genome 整合 了 精准 医学 知识 以 提供 肿瘤 突变 与 药物 响应 性 的 关系 上 10， 
Sanger 研究 所 与 麻 省 总 医院 癌症 中 心 合作 建立 了 基于 癌症 基因 组 的 药物 敏感 性 预测 模 
型 (Genomics of Drug Sensitivity in Cancer, GDSC) 00 等 。 
然而 ， 目 前 我 国 精准 医疗 的 临床 应 用 尚未 成 熟 ， 主 要 原因 是 组 学 数据 未 得 到 有 效 

解读 和 利用 ， 难 以 与 相关 精准 医学 知识 进行 关联 匹配 形成 明确 的 治疗 策略 参考 。 为 解 
决 以 上 问题 ， 蝶 待 开发 一 个 精准 医学 知识 搜索 匹配 系统 作为 临床 决策 支持 (clinical 
decision support, CDS) 工 具 [， 以 准确 联结 患者 的 组 学 数据 与 相应 的 精准 用 药 指 导 ， 为 
个 体 化 治疗 方案 的 制定 提供 参考 依据 。 但 现 有 的 精准 医学 知识 来 源 分 散 且 在 不 断 更 新 
中 ， 因 此 建立 一 个 系统 整合 前 沿 精准 医学 知识 的 数据 库 成 为 构建 上 述 搜 索 系 统 的 必要 
基础 之 一 。 本 文 将 具体 闸 述 肿瘤 精准 医学 知识 数据 库 (Precision Medicine Knowledge 
Base, PMKB) 的 数据 来 源 、 结 构 设 计 及 原理 、 构 建 方 法 。PMKB 主要 解决 了 临床 用 药 

站 征 中 包含 的 组 学 特征 数据 类 型 不 同 、 逻 辑 关 系 复杂 等 实际 问题 ， 实 现 了 不 同 数据 源 
的 精准 医学 知识 的 结构 化 存储 与 快捷 搜索 调用 ， 同 时 确保 数据 的 完整 性 与 准确 性 。 


1 数据 库 的 设计 
1.1 数据 来 源 
目前 ， 本 数据 库 收录 了 来 自 四 大 权威 机 构 的 精准 医学 知识 数据 资源 ， 分 别 为 FDA 

含 伴随 诊断 的 药物 标签 (labeD) 、NCCN 临床 实践 指南 、My Cancer Genome 精准 用 药 知 
识 以 及 Sanger 研究 所 等 提供 的 GDSC 精准 用 药 预测 资源 。 

FDA 的 伴随 诊断 是 一 种 与 识 辣 药物 相关 联 的 体外 诊断 技术 ， 主 要 通过 检测 人 体内 
和 蛋白、 突变 基因 的 表达 水 平 ， 在 不 同类 型 的 疾病 人 群 中 往 选 出 最 佳 用 药 人 群 ， 有 人 针对 
性 地 进行 个 体 化 医疗 由 0。 如 最 早 的 伴随 诊断 始 于 1988 年 FDA 批准 的 训 问 药物 赫 赛 
汀 (Herceptin)， 只 有 通过 免疫 组 化 检测 确认 HER2 蛋白 过 表达 或 通过 原 位 杂交 法 检测 
出 HER2 基因 扩 增 的 乳腺 交 患 者 才 被 允许 使 用 赫 赛 汀 治疗 。FDA 药物 标签 全 面 涵盖 了 
该 药 的 适应 证 、 伴 随 诊 断 、 用 药剂 量 、 注 意 事项 等 信息 ， 是 肿瘤 精准 用 药 指南 的 权威 
可 靠 来 源 之 一 。 

NCCN 临床 实践 指南 是 由 27 个 美国 知名 癌症 中 心 联合 制订 的 癌症 临床 治疗 路 径 规 
范 03， 并 且 指 南 内 容 会 根据 医学 进展 不 断 更 新 以 确保 其 时 效 性 ， 有 具有 高 度 临 床 参考 价 


值 。NCCN 指南 获 盖 的 癌症 种 类 全 面 ， 尤 其 是 对 于 非 小 细胞 肺癌 这 类 误 癌 药物 应 用 较 
多 的 适应 证 而 言 ， 指 南 中 会 给 出 不 同 分 子 分 型 对 应 的 可 选 治疗 方案 ， 并 标注 其 证 据 等 
级 以 区 分 推荐 优先 级 09。 

My Cancer Genome 是 为 医护 人 员 、 患 者 、 研 究 人 员 提 供 癌症 精准 医学 知识 的 一 站 
式 工 具 ， 主 要 提供 了 肿瘤 突变 与 其 对 应 治疗 药物 的 关联 信息 0 。My Cancer Genome 
依据 瘤 种 分 类 ， 分 别 给 出 癌症 相关 的 突变 及 其 亚 型 、 可 用 药物 及 其 响应 性 、 对 应 证 据 、 
可 参与 临床 试验 等 信息 01， 可 作为 FEDA 和 NCCN 两 个 临床 指南 级 精准 用 药 指导 的 详 
细 说 明 与 补充 资源 。 

GDSC 资源 是 英国 Sanger 研究 所 和 美国 麻 省 总 医院 癌症 中 心 合 作 建 立 的 基于 癌症 
基因 组 的 药物 敏感 性 数据 库 ， 整 合 收录 了 大 量 生物 标志 物 与 药物 敏感 性 之 间 的 关系 ， 
旨 在 发 气 具 有 临床 意义 的 治疗 标志 物 用 以 判断 不 同 患者 对 治疗 的 响应 性 081。 该 项 目 在 
超过 1000 个 瘤 细 胞 系 中 对 265 种 药物 进行 敏感 性 测试 ， 并 建立 了 高 精度 的 药物 响应 预 
测 模型 001。 该 资源 可 为 组 学 特征 无 明确 临床 指南 匹配 EDA、NCCN) 的 患者 提供 细胞 系 
水 平 的 精准 用 药 参 考证 据 。 


1.2 数据 库 结构 设计 

精准 医学 知识 库 的 结构 设计 主要 解决 以 下 三 个 问题 : 一 ，PMKB 整合 了 四 大 来 源 
的 数据 资源 ， 如 何 实现 不 同 来 源 数据 的 统一 结构 化 存储 ， 并 保证 数据 的 完整 性 和 准确 
PE; 二， 精准 医学 知识 中 的 用 药 指 征 通 常 较为 复杂 ， 包 括 多 个 分 子 组 学 特征 或 其 他 临 
床 指 征 ， 如 何 准 确 表征 不 同类 型 的 组 学 特征 并 保存 其 相互 间 复 杂 的 逻辑 关系 ; 三 ， 如 
何 设计 数据 表 间 的 关系 从 而 实现 数据 的 快捷 搜索 调用 ， 即 在 后 续 搜 索 匹 配 过 程 中 可 一 
次 性 读 取 一 条 用 药 指导 相关 的 所 有 用 药 指 征 和 治疗 策略 信息 。 

为 实现 上 述 数据 结构 化 存储 和 快捷 搜索 调用 的 目的 ， 本 数据 库 设 计 了 21 张 数据 表 ， 
其 实体 关系 如 图 1。 其 中 ， 临 床 用 药 指 导 表 作为 数据 库 的 核心 表 主 要 关联 了 患者 基于 
肿瘤 分 子 水 平 的 用 药 指 征 和 治疗 策略 ， 而 注释 表 存 储 了 每 条 用 药 指导 的 相应 文本 描述 
以 保证 其 原始 性 。 

临床 用 药 指导 表 ， 存 储 精 准 用 药 指导 关联 信息 ， 包 含 3 个 字段 : 临床 用 药 指导 ID 
(主键 〉、 SRATHTEID OME) MARKI GR 1) 。 临 床 用 药 指导 ID 同时 作为 
注释 表 的 外 键 。 其 他 数据 表 均 为 此 表 的 扩展 表 ， 通 过 连接 得 询 形成 一 条 完整 的 临床 用 
药 指导 。 默 认 情 况 下 所 有 表 均 使 用 自 增 ID 作为 主键。 

由 于 临床 路 径 或 治疗 指南 中 相应 的 用 药 指 征 往往 不 是 单一 的 ， 通 常 包 含 多 个 分 子 
病理 特征 或 其 他 临床 指 征 ， 因 此 我 们 通过 综合 指 征 、 综 合 指 征 成 分 、 分 子 指 征 三 张 数 
据 表 将 复杂 用 药 指 征 拆 分 为 多 个 分 子 指 征 并 表征 其 逻辑 关系 。 

综合 指 征 表 包 含 逻 辑 运算 符 ， 该 字段 值 限定 范围 为 and、or、not、is。 

综合 指 征 成 分 表 是 综合 指 征 表 的 扩展 表 ， 包 含 综合 指 征 站 〈 外 键 》、 成 分 类 型 、 
组 合 顺序 、 分 子 指 征 一 〈 外 键 ) 或 综合 指 征 ID hE) 。 其 中 ，“ 成 分 类 型 ”字段 
值 限定 为 综合 (complex) 或 分 子 (atomic) 指 征 。 若 成 分 类 型 为 综合 指 征 ， 则 通过 综合 指 征 
ID 外 接 到 综合 指 征 表 ;大 成 分 类 型 为 分 子 指 征 ， 则 通过 分 子 指 征 ID 外 接 到 分 子 指 征 
Ko 
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分 子 指 征 表 包 含 特征 类 型 ， eee ae 特征 类 型 包括 高 
甲 基 化 、 找 贝 数 变 异 、 基 因 融 合 、 基 因 表 达 有 异常、 蛋白 表达 异常 、 信 和 号 通路 激活 状态 、 
基因 突变 、 外 显 子 突变 、 单 核 苷 酸 多 态 性 、 neti (如 肿瘤 分 期 、 治 疗 史 ) 等 
14 种 类 型 。 由 于 不 同类 型 变异 所 含 信息 存 在 较 大 差异 ， 因 此 我 们 创建 了 14 张 组 学 特 
征 (feature) 表 以 存储 不 同 特征 类 型 的 具体 变异 信息 。 每 张 表 包含 的 字段 根据 其 特征 类 型 
专门 设计 ， 如 外 显 子 突变 表 包 含 字 段 : 分 子 指 征 表 ID 〈 外 键 ) 、 基 因 名 gene symbol, 
外 显 子 号 、 突 变 类 型 (包括 突变 mutation, Hi A insertion, #4 deletion ~ Bk ER 
pate 等 ) ， 而 信号 通路 激活 状态 表 包 含 字 段 : 分 子 指 征 表 ID 〈 外 键 ) 、 通 路 、 状 

类 型 (包括 上 调 、 下 调 ) 。 
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图 1 精准 医学 知识 数据 库 实 体 关 系 图 
Fig 1. Entity relationship diagram of PMKB 
#1 临床 用 药 指 导 
Table 1 Clinical directive table 
临床 用 药 指 导 ID 综合 指 征 ID 治疗 策略 ID 
Clinical directive ID Indication Complex ID Therapeutic Strategy ID 
CD1 CIl TS1 


CD2 CI2 TS2 


用 药 指 征 的 复杂 逻辑 拆 分 方法 具体 举例 如 下 : 茶 条 临床 路 径 为 “ 当 患 者 肿瘤 组 织 
同时 发 生 A 基因 突变 和 B 基因 突变 而 无 C 基因 突变 时 ， 推 荐 使 用 xx 治疗 策略 ”， 则 


此 用 药 指 征 可 结构 化 为 逻辑 组 合 (A and B) or not(C) (图 7)。 所 有 逻辑 运算 符 都 被 记录 
在 综合 指 征 表 中 ( 表 2) ， 逻 辑 运算 符 关 联 的 对 象 ( 即 综合 指 征 或 分 子 指 征 ) 被 记录 
在 综合 指 征 成 分 表 中 ( 表 3) 。 人 逻辑 运 算 符 or 的 操作 对 象 是 综合 指 征 CI2 和 CIB, and 
的 操作 对 象 是 分 子 指 征 AIl 和 AI2 not 的 操作 对 象 是 分 子 指 征 AI3， 以 上 逻辑 拆 分 的 


顺序 记录 在 综合 指 征 成 分 表 中 的 “组 合 顺序 ”字段 。 在 分 子 指 征 表 中 记录 特征 类 型 
(24) ， 分 子 指 征 表 的 ID 作为 外 键 与 不 同 组 学 特征 表 〈 如 基因 突变 表 ) 相关 联 。 具 


体 变 异 的 特征 信息 (如 A 基因 突变 ) 记录 在 组 学 特征 表 中 。 


(A and B) or not(C) 


CII 综合 指 征 


OR 运算 符 


CI2 CI3 ”综合 指 征 
AND NOT 运算 符 

All AI2 AB 分子 指 征 

A B C ”组 学 特征 


图 2 用 药 指 征 逻 辑 拆 分 示意 图 


Fig 2. Logic decomposition illustration of complex indication 


表 2 综合 指 征 表 


Table 2 Indication complex table 


综合 指 征 ID 逻辑 运算 符 
Indication Complex ID Operator 
Cll or 
CI2 and 
CI3 not 
K 3 综合 指 征 成 分 表 
Table 3 Complex indication components table 
综合 指 征 ID 成 分 类 型 组 合 顺序 综合 指 征 ID 分 子 指 征 ID 
Indication Complex ID Indication Type Component Order Indication Complex ID Indication Atomic ID 
Cll complex 1 CI2 
Cll complex 2 CI3 


CI2 atomic 1 


All 


CI2 atomic 2 AI2 
CI3 atomic 1 AI3 
表 4 分 子 指 征 表 
Table 4 Indication atomic table 
分 子 指 征 ID 特征 类 型 
Indication Atomic ID Indication Atomic Type 
All 基因 突变 
AI2 基因 突变 
ALB 基因 突变 


治疗 策略 表 包 含 治疗 策略 ID、 治 疗 策略 成 分 ID 两 个 字段 ( 表 5) ， 后 者 作为 外 键 
可 外 接 到 其 扩展 表 治 疗 策略 成 分 表 。 治 疗 策略 成 分 表 存 储 具体 药物 或 治疗 方法 信息 ， 
包括 治疗 策略 类 型 和 治疗 策略 内 容 ( 表 6) 。 其 中 ， 治 疗 策略 类 型 包括 化 疗 、 靶 向 治 
疗 、 免 疫 治疗 等 多 种 常 


Ty 


治疗 策略 通 


进行 逻辑 


a 


{nt J 


拆 分 。 


为 了 最 大 化 数据 准 


包含 不 止 一 种 药物 ， 故 其 所 涉及 到 的 药物 清单 将 被 展示 ， 目 前 没有 
有 实 上 ， 如 果 治 疗 策略 中 包含 多 种 药物 ， 可 能 意味 着 是 药物 A 和 B 联 


合用 药 ( 即 Drug A and Drug B)， 也 可 能 是 可 以 使 用 药物 A 或 B( 即 Drug A or Drug B). 


RS 治疗 策略 表 
Table 5 Therapeutic strategy table 


性， 存在 逻辑 关系 的 原始 治疗 策略 信息 被 储存 在 注释 中 以 备查 询 。 


治疗 策略 ID 治疗 策略 成 分 ID 
Therapeutic Strategy ID Therapeutic Strategy Components ID 
TS1 TSC1 
TS1 TSC2 
表 6 治疗 策略 成 分 表 
Table 6 Therapeutic strategy Components table 
治疗 策略 成 分 ID 治疗 策略 成 分 类 型 治疗 策略 内 容 
Therapeutic Strategy Components ID Components Type Therapeutic Strategy Components 
TSC1 aE aay Drug A 
TSC2 化 疗 Drug B 
2 数据 库 的 构建 方法 


本 数据 库 采 用 MySQL 数据 库 管 理 
Oracle, MySQL 具有 功能 


pL 


nik, xe 有 有 效 地 
进行 自动 化 知识 抽 提 与 转换 ， 因此 PMKB 采用 手动 方式 进行 数据 采集 以 保 记 
实 有 效 性 。 人 工 收 集 的 FDA 伴随 诊断 、NCCN 指南 、My Cancer Genome 资源 、GDSC 


系统 构建 。 相 比 于 大 中 型 数据 库 SQL server 和 
富 、 使 用 简便 、 运 行 速度 快 、 安 全 可 
由 于 各 来 源 的 精准 医学 知识 大 多 使 用 非 结构 化 的 自然 语言 描 


靠 等 优势 。 


laa 


ELEM 


F 数 据 的 真 


精准 用 药 预测 资源 ， 通 过 数据 库 开 发 工具 Navicat 手动 加 入 PMKB， 同 时 建立 各 数据 
表 之 间 的 外 键 联系 ， 从 而 完成 精准 医学 知识 数据 的 结构 化 、 标 准 化 存储 。 


3 结果 与 讨论 


精准 医学 知识 库 整 合 了 FDA、NCCN 、My Cancer Genome 和 GDSC 四 大 权威 精准 


用 药 资 源 ， 并 以 标准 化 、 可 计算 的 结构 存储 ， 以 实现 肿瘤 分 子 病 到 


1 
H 


特征 和 治疗 策略 信 


奶 的 关联 。 目 前 ，PMKB 共 收 录 了 1940 条 临床 用 药 指 导 ( 表 7) 、21 张 数据 表 〈( 表 
AAR. BARA 
Ra, (A SERRA. EARE, SDE ORE PARR S APES Heiki Ri 


8) ， 涵 盖 了 临床 信息 、 高 甲 基 化 、 拷 贝 数 变异 、 基 因 融 合 、 基 


14 种 不 同类 型 的 分 子 组 学 特征 。 
由 于 PMKB 的 结构 设计 具有 广泛 的 通用 性 与 可 扩展 性 ， 可 使 不 同 来 源 的 医学 知识 
完整 、 准 确 地 存储 于 数据 库 中 。 其 


数据 以 结构 化 的 方式 统一 、 


指 征 成 分 表 、 分 子 指 征 表 的 设计 可 有 效 表征 用 药 指 征 中 的 复 洒 逻辑 


中 ， 


综合 指 征 表 、 综 合 


关系 ， 便 于 进一步 


实现 患者 的 真实 肿瘤 分 子 组 学 特征 与 PMKB 精准 用 药 知识 之 间 的 快速 匹配 ; 各 组 学 特 
征 表 的 字段 设计 可 使 不 同 变异 类 型 的 数据 在 结构 化 存储 〈 抽 提 、 编 码 ) 过 程 中 最 大 化 
保留 其 原始 性 ， 各 数据 表 之 间 的 外 键 关联 设计 可 实现 数据 的 快捷 搜索 调用 ， 即 在 后 续 
搜索 匹配 过 程 中 可 一 次 性 读 取 一 条 用 药 指导 相关 的 所 有 用 药 指 征 和 治疗 策略 信息 。 


表 7 PMKB 临床 用 药 指导 条 目 统计 


Table 7 The number of clinical directives collected in PMKB 


; 临床 用 药 指导 
tag 记录 条 数 
FDA 44 
NCCN 70 
My Cancer Genome 58 
GDSC 1768 
BA 1940 


表 8 精准 医学 知识 数据 库 条 目 统计 


Table 8 The number of records collected in PMKB 


数据 表 名 称 英文 表 名 记录 条 数 
临床 用 药 指导 表 clinical_directive 1940 
注释 表 annotation 65601 
治疗 策略 表 therapeutic_strategy 499 
治疗 策略 成 分 表 therapeutic strategy components 351 
综合 指 征 表 indication complex 2835 
综合 指 征 成 分 表 indication complex components 6006 
分 子 指 征 表 indication atomic 2301 
高 甲 基 化 表 feature_gene hypermethylation 501 
拷贝 数 变 异 表 feature gene copy number variation 359 
基因 融合 表 feature gene fusion 12 


Li 人 人 全 甘 日 
LFA 


‘ace ae Fil 
C | NAA IVT T | 


基因 融合 状态 未 知 表 feature gene fusion unknown 1 
基因 表达 异常 人 feature gene expression 1 
信号 通路 激活 状态 表 feature pathway activity 2P 
蛋白 表达 异常 表 feature_protein_expression 24 
基因 突变 表 feature gene mutations 995 
基因 未 突变 表 feature_gene_no_mutations 5 
基因 突变 状态 未 知 表 feature gene status unknown 1 
外 显 子 突变 表 feature_gene_exon_mutation 14 
单 核 苷 酸 多 态 性 表 feature _ gene coding snp 19 
染色 体 变 异 表 feature_chromosome_mutation 1 
其 他 临床 指 征 表 feature other _ clinical indication 94 


我 们 设计 构建 的 精准 医学 知识 库 从 海量 数据 资源 中 整合 、 提 炼 了 有 效 的 精准 用 药 
知识 ， 可 通过 匹配 肿瘤 患者 的 分 子 组 学 数据 ， 为 其 提供 个 体 化 的 治疗 方案 参考 。 为 构 
建 一 个 完整 的 临床 决策 支持 系统 ， 我 们 已 建立 了 病例 组 学 数据 库 用 以 存储 患者 真实 的 
组 学 数据 ， 并 开发 了 PMKB 相应 的 匹配 算法 以 关联 患者 组 学 数据 与 精准 用 药 指导 。 病 
例 组 学 数据 库 、 精 准 医 学 知识 库 、 匹 配 算法 三 者 共同 构成 精准 医学 知识 搜索 系统 ， 则 
在 最 终 实现 临床 诊治 过 程 中 的 精准 用 药 推荐 〈 图 3) 。 利 用 此 搜索 系统 ， 我 们 已 完成 
20 例 上 胃癌 患者 的 分 子 病理 分 析 与 精准 用 药 推荐 ， 并 将 在 实际 应 用 中 持续 优化 参数 、 添 
加 最 新 的 精准 医学 知识 数据 。 目 前 PMKB 采用 的 手动 数据 采集 方式 虽然 可 以 保证 数据 
的 准确 性 ， 但 效率 较 低 ， 因 此 我 们 将 在 后 续 工 作 中 利用 自然 语言 处 理 (natural language 
processing, NLP) U9、 数据 挖 气 (data mining) 29 等 技术 建立 自动 化 的 数据 采集 方法 ， 以 
实现 高 效 的 精准 医学 知识 识别 、 抽 提 、 编 码 存储 。 


F 


精准 医学 知识 搜索 系统 


O 病例 组 学 数据 库 精准 医学 知识 库 
Patient Omics Precision Medicine 
Database Knowledgebase 
匹配 算法 


Matching Algorithm 


| 


精准 用 药 推荐 


Therapy Recommendation 


图 3 精准 医学 知识 搜索 系统 示意 


Fig 3. Illustration of precision medication searching system 
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